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摘 要 : 特定 目标 情感 分 析 的 目的 是 从 不 同 目标 词语 的 角度 来 预测 文本 的 情感 ， 关 键 是 为 给 定 的 目标 分 配 适当 的 
情感 词 。 当 句子 中 出 现 多 个 情感 词 描述 多 个 目标 情感 的 情况 时 ， 可 能 会 导致 情感 词 和 目标 之 间 的 不 匹配 。 由 此 提 
出 了 一 个 CRT 机 制 混合 神经 网 络 来 用 于 特定 目标 情感 分 析 ， 模 型 使 用 CNN 层 从 经 过 BiLSTM 变换 后 的 单词 表示 
中 提取 特征 ， 通 过 CRT 组 件 生成 单词 的 特定 目标 表示 并 保存 来 自 BiLSTM 层 的 原始 上 下 文 信息 。 在 三 种 公开 数据 
集 上 进行 了 实验 ， 实 验 结果 表明 ， 该 模型 在 特定 目标 情感 分 析 任务 中 较 之 前 的 情感 分 析 模型 在 准确 率 和 稳定 性 上 
有 着 明显 的 提升 ， 证 明 CRT 机 制 能 很 好 地 整合 CNN 和 LSTM 的 优势 ， 这 对 于 特定 目标 情感 分 析 任务 具有 重要 的 
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N Abstract: The purpose of target-specific affective analysis is to predict the sentiment of a text from the perspective of 
本 一 different target words. The key is to assign appropriate affective words to a given target. When there are more than one 
C affective word describing multiple target sentiments in a sentence, it may lead to the mismatch between the affective word 
and the target. In this paper, a hybrid neural network based on CRT mechanism is proposed for target-specific sentiment 


analysis. The model uses CNN layer to extract features from the word representation after BILSTM transformation. The 


mu specific target representation of the word is generated by CRT component and the original context information from 
BiLSTM layer is saved. Experiments on three open datasets show that the proposed model can significantly improve the 
accuracy and stability of target-specific affective analysis tasks compared with previous models. It is proved that the CRT 
mechanism in this paper can integrate the advantages of CNN and LSTM well, which is of great significance to the task of 
sentiment analysis for specific targets. 
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long short-term memory network 


感 分 析 问 题 ， 采 用 长 短 时 记忆 网 络 根据 前 后 词语 的 关联 性 


0 引言 进行 情感 分 析 。 取 得 了 比 以 往 研究 更 好 的 效果 。 
随 着 互联 网 社交 平台 技术 的 快速 发 展 ， 人 们 可 以 越 来 特定 目标 情感 分 析 (target-level sentiment analysis) 是 情 
越 方 便 使 用 网 络 上 进行 信息 交流 。 用 户 在 网 络 平台 上 发 表意 感 分 析 研 究 工作 中 一 项 重要 的 子 任务 ， 目 标 是 获取 更 深层 次 


见 ， 表 达观 点 ， 这 产生 了 大 量 带 有 个 人 情感 色彩 的 短文 本 数 ”的 情感 信息 。 不 同 于 常规 的 情感 分 析 任 务 ， 特 定 目标 情感 分 


据 ， 从 这 些 数据 中 提取 有 价值 的 信息 成 为 了 一 项 重要 的 研究 。” 析 极 性 的 判别 需要 同时 依赖 特定 目标 的 特征 信息 和 文本 的 上 
工作 。 因 此 ， 利 用 自然 语言 处 理 来 分 析 互 联网 文本 的 情感 倾 下 文 信息 。 例 如 ，“ great food but the service was 
向 已 经 成 为 研究 热点 之 一 吓 。 dreadful! ”, 对 于 目标 “food ”是 积极 情感 ， 对 于 目标 

近年 来 ， 随 着 深度 学 习 在 自然 语言 处 理 领域 的 应 用 ， “service” 却 是 消极 情感 。 所 以 ， 如 果 一 句 话 表达 了 对 多 
越 来 越 多 的 科研 人 员 尝 试 使 用 深度 学 习 的 方法 来 解决 情感 分 “个 目标 的 不 同情 绪 ， 对 于 同一 句 话 的 情感 分 析 可 能 出 现 两 种 


析 问 题 说 。 例 如 ，Kim 等 人 中 I 使 用 卷 积 神经 网 络 来 解决 文本 ”截然 相反 的 结果 。 
情感 分 析 问 题 。 梁 军 等 外 利用 深度 学 习 的 方法 来 处 理 微 博 情 由 此 ， 研 究 人 员 将 目光 转向 图 像 处 理 领 域 的 注意 力 机 
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制 。 注 意 力 
开 究 ， 人 类 
H15, Z 


性 ， 然 后 使 
明了 注意 力 
注意 力 权重 
确 度 。 例 如 


and never g 


* favorite " 
此 外 ， 


favorite 


络 (RNND, Bahdanau 等 人 tI 首先 应 用 于 机 器 翻译 工作 目标 类 别 ， 克 服 了 上 述 两 类 方法 的 缺点 。 然 而 该 模型 直接 关 
中 ， 使 注意 力 机 制 成 功 融 入 自然 语言 处 理 领 域 。Ma SEAU 注 具 有 注意 力 层 的 目标 的 指定 情感 信息 ， 当 不 相关 的 情感 词 
通过 attention 计算 每 个 上 下 文 单词 和 目标 之 间 的 语义 相关 ”对 特定 目标 在 语义 上 有 意义 时 ， 这 可 能 导致 情感 词 和 特定 


例如 “never” 和 “tried ”， 当 他 们 突出 意见 修饰 语 子 中 的 特定 目标 的 情感 极 性 。 例 如 ， 在 “I am pleased with 
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机 制 (attention mechanism) 源 于 对 人 类 视觉 的 。 别 是 Wang 等 人 59 提出 了 一 种 基于 注意 力 的 LSTM 来 预测 
会 选择 性 地 关注 重要 信息 ， 同 时 忽略 其 他 可 见 的 给 定 方面 类 别 的 句子 的 情感 极 性 ， 并 达到 最 先进 的 性 能 ,该 
自然 语言 处 理 领 域 ， 加 入 注意 机 制 的 循环 神经 网 。 模型 涵盖 了 内 隐 和 显 式 两 个 方面 的 表达 ， 并 自动 将 情感 分 为 


用 注意 力 分 数 用 于 预测 上 下 文 特征 ， 这 类 工作 证 。 标的 不 匹配 。 因 此 ， 本 文 提出 了 一 个 基于 CRT 机 制 混合 神 
机 制 在 自然 语言 分 析 领 域 的 有 效 性 。 但 是 ， 基 于 ”经 网 络 来 解决 这 个 问题 。 
的 词 级 特征 用 于 分 类 可 能 引入 噪声 并 降低 预测 准 "PT 

3 i uu 
; {Œ "This dish is my favorite and I always get it 2 ”基于 CRT 机 制 混合 神经 网 络 模型 
et tired of it.” 这 些 方法 往往 涉及 不 相关 的 词 ， 基于 CRT 机 制 的 混合 神经 网 络 旨 在 确定 明显 出 现在 名 


。 在 某 种 程度 上 来 说 ， 这 种 缺点 源 于 注意 机 制 。 the fast running speed, and the big screen size” 这 句 话 中 ， 用 
标的 情绪 通常 由 关键 短语 决定 ， 例 如 “is my ” 户 提 到 两 个 目标 “running speed” 和 “screen size"”， 并 表达 出 


”。 通 过 这 种 方式 ，CNNs- 其 用 于 提取 信息 最 丰富 的 对 它们 的 积极 情绪 。 该 任务 通常 被 当做 预测 一 对 (目标 ， 


n-gram fil 


F 作 为 句子 表示 的 能 力 已 在 Kim 等 人 的 工作 中 得 SP) 的 情感 类 别 。 


到 验证 。 但 是 ， 如 果 一 句 话 表达 了 对 多 个 目标 的 不 同情 绪 ， 2.1 模型 概述 

例如 “great food but the service was dreadful!”，CNN 可 能 给 定 目 标 句 子 对 ww) ， 其 中 W siwwe ew) 是 

会 束手无策 。 一 个 原因 是 CNN 不 能 像 基 于 RNN 的 方法 那 W=tww,…w} 的 子 序 列 ， 相 应 的 词 嵌 入 序列 是 

样 充分 遍历 目标 信息 ， 而 且 CNN 很 难 区 分 多 个 目标 的 情感 X = XXn} 和 X={xx wx ， 本 文 研究 的 目的 是 预测 

词 。 句子 W 在 目标 WwW” 上 的 的 情感 极 性 ye{P,N,0} ， 其 中 P, N 
本 文 提出 了 一 种 加 入 CRT 机 制 的 混合 神经 网 络 模型 ， 和 0 分 别 表 示 “积极 入 “消极 ”和 “中 性 ”的 情感 极 性 。 


以 解决 目标 


情感 分 类 任务 中 的 上 述 问题 。 模 型 首先 将 上 下 本 文 提 出 的 基于 CRT 机 制 混合 神经 网 络 (CRT hybrid 


文 
信息 编码 为 单词 嵌入 ， 并 使 用 LSTM 生成 语 境 化 的 单词 表 ^^ neural network ，CRT-HNN) 模 型 如 图 1 所 示 。 底 层 是 


示 。 为 了 将 目标 信息 集成 到 单词 表示 中 ， 本 文 加 入 了 一 种 特 word2vec 层 ， 它 将 输入 句子 转换 为 词 向 量 的 形式 。 中 间 层 
定 目 标 转换 〈target-level transformation, TLT) 组 件 ， 用 于 的 底部 是 双向 长 短 时 记忆 网 络 (BiLSTM) ， 它 将 输入 
生成 特定 目标 的 单词 表示 。 与 基于 注意 力 机 制 的 方法 不 同 ， X-(uxesxbeRU" 转换 为 上 下 文 语 境 化 的 词语 表示 
TLT 首先 使 用 相同 的 目标 表示 来 确定 单个 上 下 文 单词 的 注意 u'? 2 (ud uu) eR" CHI BiLSTM 的 隐藏 表征 )， 其 中 
力 分 数 ， 然 后 根据 每 个 上 下 文 单词 生成 不 同 的 目标 表示 ， 然 dimy 和 dim, 分 别 表 示 词 嵌入 和 隐藏 表征 的 向 量 维 数 。 中 间 
后 将 每 个 上 下 文 单词 与 其 相应 的 目标 表示 进行 合并 ， 以 于 获 。 层 是 CRT- HNN 模型 的 核心 部 分 ， 长 度 为 L 的 上 下 文保 存 
得 变换 后 的 单词 表示 。 于 来 自 LSTM 层 的 表示 所 携带 的 转换 (context-retention transformation,CRT) 层 。CRT EAS 
上 下 文 信息 将 在 非 线 性 TLT 变换 之 后 丢失 ， 因 此 本 文 设计 ”了 一 种 上 下 文保 存 机 制 ， 使 用 深层 网 络 保留 上 下 文 信息 并 学 
了 上 下 文 信息 保留 机 制 对 所 生成 的 特定 目标 的 单词 表示 进行 ” 习 更 抽象 的 单词 级 特征 。 最 顶层 的 部 分 是 卷 积 层 特征 提取 
上 下 文化 处 理 。 为 了 使 CNN 特征 提取 层 能 够 更 准确 地 定位 。 层 ， 它 首先 将 单词 和 目标 之 间 的 位 置 相 关 性 进行 编码 ， 然 后 
情感 信息 ， 采 用 接近 策略 (proximity strategy) 对 卷 积 层 的 输 ” 提取 用 于 分 类 的 信息 特征 。 
入 以 及 单词 和 目标 之 间 的 位 置 相 关 性 进行 缩放 处 理 。 Foodipositive | Sevice” | Pre | | 
1 相关 工作 Classifier 

特定 目标 情感 分 析 作 为 情感 分 析 领 域 一 项 重要 的 研究 TERANA 
课题 ， 它 是 通过 结合 上 下 文 的 信息 对 文本 中 特定 目标 进行 情 CONS i 
感 极 性 判断 ， 属 于 情感 分 析 工 作 中 的 细 分 任务 呈 。 特 定 目标 CRT| | CRT CRT 
情感 分 析 研 究 主要 分 为 以 下 三 类 : 5 | | 

a) 分 别提 取 文 本 的 特定 目标 和 情感 ， 并 在 之 后 将 它们 联 1 | lo Lo T 
系 起 来 。 句 子 的 各 个 目标 通常 是 用 语言 模型 来 提取 的 中， 有 RT | lm — 
监督 的 序列 标注 09 或 分 类 算法 00。 句 子 的 情感 通常 分 为 一 B» he Py 
般 情感 分 类 方法 ， 如 基于 规则 的 方法 M4、 基于 特征 的 分 类 | 
器 03] 或 神经 网 络 04。 然 而 ， 这 些 方法 只 为 句子 分 配 一 个 情 BILSTM 于 
感 极 性 ， 因 此 对 于 句子 在 两 个 目标 表达 不 同意 见 的 情况 ， 不 I jm ; 
能 产生 正确 的 结果 。 E Bc " 

b) 依 赖 于 目标 的 情感 分 类 ， 其 目的 是 根据 句子 中 提 到 的 word2vec | 
给 定 目标 词 推断 句子 的 情感 极 性 ， 通 过 添加 一 些 特定 目标 特 
征 05 或 设计 特定 的 神经 网 络 (Nguyen 等 ) 结 构 来 考虑 特定 月 T rum 
CHEM D T SSH TS, nuc piu 
并 且 也 不 能 将 目标 词 分 组 为 目标 类 别 。 jen ^ [3ehibhouse 

c) 特 定 目标 情感 分 析 最 近 比 较 流行 的 一 个 趋势 ， 它 利用 图 1 模型 图 
注意 力 神 经 网 络 来 预测 给 定 一 个 目标 的 句子 的 情感 极 性 。 特 Fig.1 Model diagram 
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2.2 Word2vec 层 


x 


威 ， 


Word2vec07 是 Google 在 2013 年 提出 的 开源 的 一 款 将 


词 表 示 为 实数 值 向 


容 的 处 理 简 化 为 K 
用 来 表示 文本 语义 上 的 相似 度 ， 


关联 信息 。 


将 上 


表示 单词 的 有 效 方式 08。 


AS 


E I EE AS ERRA E) Y EH RAER. 
2.3 双向 长 短 时 记忆 网 络 层 (BiLSTM) 
与 词 舱 入 相 结 合 是 在 基于 卷 积 的 结构 中 
BiLSTM 3E £ 


CRT- HNN 还 使 用 


积 输入 句子 的 每 个 单词 的 上 下 文 信息 ， 即 图 


层 部 分 。 为 了 方便 


， 本 文 将 LSTM 单元 处 


LSTM(x) 。 因 此 


0 
uo 


= {up ,2,0 } eR 


， 获 取 上 下 文 语 境 化 的 词语 表 


nx2dim, 如 下 : 


量 的 高 效 工 具 。 通 过 训练 可 以 把 对 文本 内 
作 向 量 运算 ， 而 向 量 空 间 上 的 相似 度 可 以 
它 能 很 好 的 保存 文本 词语 的 


1 中 中 间 层 的 底 
FE x; 的 操作 记 为 


AN 


u® =[LSTM (x; LSTM Cx)],i € [Ln]. (1) 

2.4 保存 上 下 文 信息 的 转换 (CRT) 
传统 的 基于 注意 力 机 制 的 方法 保存 的 是 静态 词 级 特 
征 ， 并 将 其 与 权重 结合 作为 最 终 句 子 表 示 。 相 反 ， 如 图 1 中 
间 部 分 所 示 ， 本 文 引入 了 多 个 CRT 层 ，CRT 的 细节 如 图 2 


所 示 。 在 每 个 CRT 
Specific Transformation, TST)ZH fr, S Œ Eig Hh JA, 


屋 中 ， 加 入 一 个 特定 目标 变换 (Target- 


固 目 标 词 


2.4.2 上 下 文 信息 保留 机 制 
在 非 线 性 变换 单元 处 理 之 后 ， 由 
上 下 文 信息 将 丢失 ， 
PRAE. Jg f 
传输 (lossless conveying, 
AZ)， 可 以 将 上 下 文 信息 传递 到 每 个 后 续 
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无 损 传输 / 自 适 应 缩放 


TST 


2 ”CRT 细节 图 


Fig.2 CRT details 


因 
JE TE 


BiLSTM 


zB 


获 的 


为 特征 向 量 内 的 特征 均值 和 方差 将 被 


的 信息 ， 本 文 太 
LC) 和 自 适 


JL 


了 两 种 策略 : 无 损 


立 缩放 (adaptive zooming, 
Z, WE 


2 中 无 损 


语 表示 ,本 文 设计 的 保存 上 下 文 信息 的 转换 机 制 ， 可 以 在 深 转发 / 自 适应 缩放 单元 所 示 。 因 此 ， 本 文 模型 被 命名 为 TLH- 
层 神 经 网 络 结构 中 获取 目标 词语 表示 。 Net-LC 和 TLH-Net-AZ。 
2.4.1 特定 目标 变换 单元 a) 无 损 传 输 。 该 策略 通过 在 转换 之 前 将 特征 直接 馈送 到 
特定 目标 变换 单元 (TST) 如 图 2 所 示 ， 它 用 来 生成 目标 下 一 层 来 保存 上 下 文 信息 。 具 体 来 说 ， 就 是 将 针对 特定 目标 
词语 的 表示 。 之 前 的 方法 将 目标 词语 的 词 嵌 入 平均 化 为 目标 转换 层 中 第 H 层 的 输入 uw” 公式 为 
表示 129。 不 过 这 种 方法 在 一 些 情况 下 可 能 不 够 合适 ， 因 为 uj =u” +ã” ,ie[l,n],] €[0, L] (6) 
不 同 的 目标 词 一 般 不 会 对 整个 句子 产生 相同 的 情感 贡献 。 例 其 中 :凡是 第 ! 层 的 输入 ， 娩 是 针对 非 线 性 转换 (NT) 层 的 
如 ， 在 目标 句子 “NVIDIA Titanic Graphics" HP , 词 语 输出 。 将 式 C60 以 递归 形式 展开 如 下 : 
“Graphics” 比 “NVIDIA” 和 “Titanic” 更 为 重要 ， 因 为 情感 通常 ul =u?  NT(u) +--+ NTU”). (7) 
在 句子 头 上 传递 〈 即 , “Graphics”)， 一 般 不 会 超过 修饰 词 这 里 ， d a? WK NTU”). MAA (7) 可 以 看 到 ， 每 个 
(例如 品牌 名 称 “NVIDIA”)。Ma 等 人 尝试 通过 计算 每 个 层 的 输出 将 包含 词语 的 上 下 文 信息 (w" )， 因 此 上 下 文 信息 
目标 词 表示 与 平均 句子 向 量 之 间 的 重要 性 分 数 来 解决 这 个 问 被 编码 到 变换 的 特征 中 。 称 这 种 策略 为 “无 损 转发 >， 因为 
题 。 但 是 ， 这 对 于 表达 多 个 情感 的 句子 来 说 ， 它 可 能 无 效 在 特征 组 合 期 间 ， 上 下 文 信息 表示 和 针对 特定 目标 转换 表示 


(例如 , “ Iphone8 runs 


short." ), [4 


fast, but the battery life is too 
为 取 平 均值 通常 会 抵消 掉 不 同 倾向 的 情感 。 本 


(NT 


(un) ) 保 持 不 变 。 


b) 自 适应 缩放 。 无 损 转发 可 以 通过 直接 将 上 下 文 信息 特 


文 设想 根据 每 个 句子 的 单词 而 不 是 整个 句子 来 动态 地 计算 目 征 添加 到 转换 特征 来 引入 上 下 文 信息 ， 为 了 使 输入 和 转换 特 
标 词 的 重要 性 。 首 先 使 用 一 个 BiLSTM 获得 目标 词 表示 征 的 权重 可 以 动态 地 调整 ， 本 文 提 出 了 另 一 种 策略 ， 称 为 
uw e gems , “ 自 适 应 缩放 ”。 类 似 于 长 短 时 记忆 网 络 中 的 门 结构 ， 自 适 
A ec 应 缩放 引入 了 门 控 函 数 来 控制 输入 特征 和 转换 特征 的 通过 比 
u; =[LSTM Gc; LSTM (x; )], j € [l,m]. (2) 例 。 门 控 函数 go 为 
之 后 ， 动 态 地 将 它们 与 句子 中 的 每 个 单词 wi 相关 联 ， EP 20V uuu bus), (8) 
以 便 在 时 间 步 长 i 中 制定 目标 词 表示 : 其 中 : sg” 是 第 /个 CRT 层 第 i 个 输入 的 门 ，o 是 sigmoid 
jus TQ). (3) pe 数 。 然 后 ， 基 于 门 控 函数 对 e 和 i 进行 凸 线性 组 
je 口 : 
T—— —— —e€ E up -ghoü-ü-s)ou.(9) 
方程 用 来 度量 第 /7 个 目标 词 表示 必 和 第 i 个 词 级 表示 XH, o 记 为 元 素 乘法 。 该 等 式 的 非 递归 形式 如 下 ; 
u” 之 间 的 关联 性 uD -if[a- z16u «te TTa- eoo Nrad- 
duc exp(uj u:) c y d 
Iu ,Wr (4) +g 0- e) 6 NT(uIO) gi? o NT(u). 
Dexplu ur) DRM : ; 
忆 此 ， 上 下 文 信息 被 集成 在 每 个 上 层 中 ， 并 且 上 下 文 
figu. «Wu 以 串联 的 形式 送 入 全 连接 层 来 获得 第 i 特征 和 变换 特征 的 比例 由 不 同 变 换 层 中 的 计算 门 控 制 。 
个 特定 目标 单词 的 表示 2 : 2.5 ” 卷 积 特征 提取 层 
üP = AW pu]? :rf]+b°), (5) 影响 CNN 处 理 效 果 的 一 个 原因 是 可 以 将 目标 词语 与 不 
其 中 :Ap 是 非 线性 激活 函数 ,“: ”代表 向 量 拼接 操作 。 相关 的 一 般 意 见 词 相 关联 ， 这 些 意见 词 通常 被 用 做 跨 领域 不 


w 和 六 代表 全 连接 层 的 权重 矩阵 。 


同 


标 词语 的 修饰 词 。 例 如 ， 在 句子 “Great food but the 


service is dreadful” 中 ， 词 语 “service ”可 能 会 同时 与 
“Great” 和 “dreadful”* 联 系 起 来 。 为 了 解决 这 个 问题 ， 本 文 
引入 了 一 种 邻近 策略 ， 这 个 想法 是 一 个 更 接近 目标 词语 的 意 
见 词 更 可 能 是 目标 词语 的 实际 修饰 词 。 

具体 来 说 ， 本 文 首先 计算 第 i 个 词 和 目标 句子 之 间 的 位 
置 相关 性 v; (实际 操作 中 ， 索 引 i 的 长 度 可 能 会 大 于 句子 的 
实际 长 度 n) : 


EA) i<k+m 
Ç 
%5 jr k+m<i<n (10) 
C 
0 i»n 


其 中 : k 是 第 一 个 目标 词 的 索引 ，e 是 预先 设 定好 的 常量 。 
m 是 目标 句子 的 表示 和 矩阵 w 的 长 度 ， 可 以 利用 v 来 辅助 
CNN 确定 给 定 目标 的 正确 情感 : 
ND =u” #v,,i e[l,n],] e[l, L]. (11) 

靠近 目标 的 词语 将 被 突出 ， 远 离 目 标的 词 重 视 程度 将 
会 降低 。 将 v 应 用 在 中 间 层 的 输出 上 ， 以 便 将 位 置信 息 引 入 


每 个 CRT 层 ; 然后 将 加 权 的 w2% 输 入 到 卷 积 层 ， 生 成 如 下 特 
征 映射 ceR”™ : 
ci -Re LU (Ww nta tb) (12) 
Hp: «na eRU Ra... 的 连接 向 量 ，s 是 卷 积 核 的 
大 小 。 wm sR "和 &ws 下 是 卷 积 核 可 学 习 权 值 。 为 了 捕 
捉 最 翔实 的 特征 ， 本 文采 用 maxpooling 并 通过 使 用 nx 内核 
来 获得 句子 表示 zem" : 
z — [max(o),---, max(c,, y. (13) 
最 终 ， 将 z 输 入 到 全 连接 层 进行 情感 分 析 : 
pO |w", w) = Soft max(W, z +b, ). (14) 


Jf: WU bE FISA 


3 ”实验 及 结果 分 析 


3.1 数据 集 

本 文选 择 三 种 公开 数据 集 进行 实验 ， 其 中 两 个 数据 集 
来 自 SemEval2016 任务 5 数据 集中 的 laptop 和 restaurant 领 
域 ， 它 主要 用 于 细 粒 度 情感 分 析 ， 每 个 领域 的 数据 集 都 分 为 
训练 数据 和 测试 数据 ， 本 文 删除 了 数据 集中 的 冲突 类 别 。 本 
文 对 restaurant 数据 集 设 置 了 五 个 目标 类 别 {food，service， 


price, environment, atmosphere], Xj loptop 数据 集 设置 了 五 


个 目标 类 别 {prince ，reliability , running speed, battery 
life,screen} 。 第 三 个 是 Dong 等 人 R29 收集 的 Twitter 数据 
集 。 所 有 数据 都 是 在 不 删除 停 用 词 、 符 号 或 数字 的 情况 下 进 
行 的 ， 因 为 停 用 词 中 也 可 能 含有 某 些 情感 情结， 并 且 句 子 使 
用 零 填充 的 方式 以 达到 数据 集中 的 最 长 句子 的 长 度 。 实 验 使 
用 数据 统计 如 表 1 所 示 ， 评 价 指 标 是 分 类 准确 率 
(accuracy) MAER (recall)。 

表 1 实验 数据 统计 


Table 1 Statistics of experimental data 


数据 集 积极 消极 中 性 
训练 集 2159 805 643 
Restaurant pM 

测试 集 726 196 196 
训练 集 980 870 464 

Laptop 
测试 集 352 128 169 
. 训练 集 1560 1560 3125 

Twitter 、 
测试 集 173 173 345 
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表 2 实验 数据 样 例 


Table 2 Sample experimental data 


数据 集 
Great food but the service was dreadful! 
«targetTerms? 
semeval «targetTerm. z"food"polarityz"positive"» 
«targetTerm -"service" polarityz"neutral"» 
X/targetTerms? 
twitter windows is than ios. 


3.2 超人 参数 设置 

本 文 使 用 预先 训练 好 的 word2vec ir Ere rat tg x 
入 模型 ， 向 量 维度 设置 为 300 维 。 为 了 减轻 过 拟 合 ， 对 
LSTM WA SERRA RUE ZR) eos Z 应 用 了 Dropouts Hi 
有 权重 矩阵 用 均匀 分 布 U C0.01,-0.010. 初始 化 ， 偏 差 初 始 
WHE. WIZEKF bie oc SCR AER, EALA AdamP Hg y 
优化 工具 ， 使 用 原始 文献 中 的 学 习 率 和 衰减 率 。 模 型 超 参 数 
设置 如 表 3 所 示 。 


表 3 实验 参数 


Table 3 Experimental parameters 


超 参数 设置 
dim, 300 
dim, 50 
Dropout rates (p. P.) (0.3,0.3) 
L 3 
Batch size 64 
s 3 
n, 100 
C 30 


3.3 ”模型 对 比 实验 
在 词 向 量 300 维 的 基础 上 ， 本 文选 择 与 基于 传统 机 器 
学 习 的 SVM 模型 和 基于 深度 学 习 的 模型 进行 对 比 。 模 型 
体 方法 设计 如 下 : 
a)jSVMU?!, Kiritchenko 等 人 提出 的 传统 基于 特征 的 
SVM 分 类 模型 ， 它 采用 了 一 系列 人 工 标 注 的 数据 对 模型 进 
行 训练 ， 该 模型 取得 了 比 以 往 研究 更 好 的 分 类 效果 。 
b)CNN。 基 于 Kim 提出 的 卷 积 神经 网 络 模型 ， 该 模型 
使 用 预 训 练 的 词 向 量 作为 输入 ， 输 入 可 被 视 为 静态 或 非 静 
态 ， 通 过 卷 积 操作 提取 文本 的 情感 特征 ， 然 后 使 用 分 类 器 进 
行 分 类 。 由 于 该 模型 是 最 基本 的 CNN 模型 ， 它 没有 结合 特 
定 目 标的 注意 力 机 制 ， 无 法 在 训练 过 程 中 高 度 关注 特定 目标 
情感 信息 。 例 如 ， 模 型 将 “Great food but the service was 
dreadful!” 中 的 “food” 和 “service” 都 判断 为 积极 的 情感 
倾向 。 
c)ATT-CNN. JE Wang 等 人 [31 提出 的 多 层 注 意 力 机 
制 卷 积 神经 网 络 ， 可 以 使 模型 在 训练 过 程 中 高 度 关注 特定 目 
标的 情感 信息 ， 它 将 词 向 量 作 为 注意 力 机 制 构建 网 络 的 输入 
和 矩阵， 形成 单 注意 力 机 制 。 
dATT-LSTM 。Wang 等 人 提出 的 基于 注意 力 机 制 的 
LSTM 网 络 ， 该 模型 加 入 了 特定 目标 的 注意 力 信息 ， 使 用 预 
训练 的 word2vec 词 向 量 作为 输入 来 训练 模型 ， 该 模型 在 五 
种 特定 目标 的 情感 分 类 中 取得 了 比 传统 LSTM 网 络 更 好 的 
分 类 效果 。 
e)TD-LSTM 。 文 献 [24] 中 使 用 两 个 LSTM 分 别 对 目标 
的 左右 两 侧 文 本 进行 建 模 ， 并 将 来 自 两 个 方向 的 最 后 隐藏 状 
态 连 接 为 用 于 情感 分 类 的 情感 特征 ， 然 后 根据 级 联 的 上 下 文 


T 
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表示 进行 预测 。 息 ， 所 以 表现 不 如 CNN 模型。 

DBILSTM-ATTG。 文 献 [2$] 中 使 用 两 个 基于 注意 力 机 将 基于 CNN 的 模型 和 基于 LSTM 的 模型 与 本 文 提 出 的 


制 的 LSTM 对 目标 左右 两 侧 的 上 下 文 信息 进行 建 模 ， 以 在 。 HNN-LC 和 HNN-AZ 可 以 看 出 ， 本 文 的 模型 通过 CRT JL 
句子 上 提取 单词 的 分 布 式 表示 ， 然 后 将 注意 力 应 用 于 隐藏 节 ”将 CNN 在 特征 提取 和 LSTM 在 上 下 文 信息 提取 上 的 优势 进 
点 以 估计 每 个 单词 的 重要 性 ， 并 引入 门 函数 来 计算 左 、 右 两 — 行 了 整合 ， 弥 补 了 CNN 和 LSTM 存在 的 缺陷 ， 在 语法 较为 
侧 上 下 文 和 整个 句子 的 重要 性 以 用 于 预测 。 标准 的 数据 集 上 和 语法 相对 混乱 的 数据 集 上 都 取得 了 令 人 满 
如 表 4 所 示 ，CRTHNN-LC 和 CRTHNN-AZ 始终 在 所 意 的 效果 。 

有 数据 集 上 达到 最 佳 性 能 ， 这 验证 了 整个 CRT-HNN 模型 的 3.4 CRT 层 数 对 模型 的 影响 


i 


有 效 性 。 由 于 本 文 的 模型 引入 了 多 个 CRT 层 ， 下 面 将 研究 CRT 
表 4 实验 结果 层 数 对 于 模型 预测 精度 的 影响 。 实 验 在 SemEval 数据 集 上 
Table 4 Experimental results 进行 ，Le{1,10} 。 实 验 结果 如 图 3 所 示 ， 可 以 看 出 ， 在 CRT 
模型 laptop restaurant twitter 层 数 为 3 的 时 候 ， 模型 性 能 最 佳 。 
准确 率 / 召 回 率 ”准确 率 /召回 率 ”准确 率 /召回 率 
SVM 71.33/70.89 75.76/73.12 aJ E 
CNN 65.67/64.78 — 69.90/70.24 — 74.64/75.11 : : 
ATT-CNN 72.67/71.41 78.23/16.43 75.61/15.33 ibo 
LSTM 73.32/74.13  76.34/16.44  68.13/67.89 83 
TD-LSTM 76.25/15.68  77.88/78.08 69.10/68.67 z BO 
BILSTM-ATT-G 77.34/77.65 79.54/18.65 70.12/69.43 " 
HNN-LC 81.67/82.3  85.46/85.78 | 76.46/76.89 
HNN-AZ 82.13/81.72 85.50/85.61 71.28/16.65 - 1 2 3 4 5 6 7 8 9 10 
对 CNN 和 ATT-CNN 进行 深入 分 析 可 以 发 现 ， 没 有 加 CRT 层 数 
入 任何 注意 力 机 制 的 CNN 模型 将 大 量 句 子 中 的 不 同 目 标 词 图 3 CRT 层 数 对 模型 的 影响 


tF 


Fig.3 The impact of the number of CRT layers on the model 


4 ”结束 语 


语 判别 为 相同 的 情感 极 性 ， 它 不 能 针对 特定 目标 提取 出 更 
细 的 的 特征 信息 ， 所 以 无 法 准确 判断 一 个 句子 中 不 同 目标 
情感 极 性 。ATT-CNN 在 三 个 数据 集 上 的 分 类 效果 优 于 传 
的 SVM 模型 ， 原 因 是 它 加 入 了 特定 目标 注意 力 机 制 ， 可 本 文 深 入 研究 了 目标 词语 情感 分 析 中 注意 力 机 制 的 缺 
使 模型 在 训练 的 过 程 中 通过 注意 力 机 制 对 特定 目标 的 情感 点 ， 探 讨 了 LSTM 和 CNN 模型 在 这 类 任务 中 的 优势 和 不 
息 进行 关注 和 学 习 ， 可 以 针对 特定 的 目标 词语 作出 相应 的 情 Æ. AXK CRT-HNN 模型 很 好 的 将 LSTM 保存 上 下 文 信息 
感 极 性 判断 ， 这 证 明了 特定 目标 注意 力 机 制 对 于 CNN 模型 ”的 优势 和 CNN 在 特征 提取 中 的 优势 相 结 合 ， 在 解决 不 同 数 
的 有 效 性 。 此 外 ， 基 于 CNN 的 模型 在 语法 结构 不 够 正式 的 。”” 据 类 型 的 问题 上 取得 了 比 以 往 的 模型 更 加 稳定 的 表现 。 实 验 
Twitter 数据 集中 取得 了 不 错 的 效果 ， 原 因 是 CNN 模型 在 特 。 ”结果 证 明 本 文 模型 在 多 种 数据 集 上 取得 了 比 先前 模型 更 为 优 
征 提 取 方 面 存 在 着 优势 ， 可 以 在 相对 混乱 的 句子 中 提取 出 重 BHAR. EHI CRT 机 制 有 效 性 的 实验 也 证 明了 CRT-HNN 
要 的 情感 特征 。 模型 架构 的 合理 性 。 

对 比 SVM、LSTM、TD-LSTM 和 BILSTM-ATT-G 四 参考 文献 
种 模型 可 以 发 现 ，LSTM 的 模型 与 传统 的 SVM 模型 相 比 在 P 


ni sz NS x 
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Restaurant 和 Loptop 上 也 取得 了 更 好 的 结果 ， 原 因 是 基于  ” [1] 王 仲 远 , 程 健 胸 , 王 海 勋 , 等 .短文 本 理解 研究 UJ]. 计算 机 研究 与 发 展 ， 
序列 信息 的 LSTM 模型 通过 捕获 更 有 用 的 上 下 文 特征 能 够 2016，53(2): 262-269. (Wang Zhongyuan, Cheng Jianpeng，Wang 
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